Utilisation de la théorie des graphes et de la distance d'édition pour la recherche d'information sur documents XML
نویسندگان
چکیده
Information retrieval on semi-structured documents like XML (SIR) allows the user to narrow his search down to the document element level. Queries and semi-structured documents could be seen as hierarchically nested elements. We consider that their structural proximity could be evaluated over their trees similarity. Our SIR approach combines both content and structure scores, the latter being based on tree edit distance (minimal cost of operations to turn one tree to another). We then propagate and combine our score based on the neighbourhood of each of our nodes in the tree document structure. Our approach was evaluated over the SSCAS INEX’s 2005 task and our first results show the interest of such an approach. MOTS-CLES : Recherche d’information, graphes, XML, distance d’édition.
منابع مشابه
Texte et Représentation en Recherche d'Information
Les performances des modèles de Recherche d'Information (RI) sont for-tement liées à leur capacité à représenter le texte. Ces dernières années, portés par les succès en reconnaissance d'image et de parole, de nombreux modèles basés sur les réseaux de neurones et les représentations distri-buées des mots et phrases sont apparus. Quelques modèles ont essayé d'aborder le problème de la RI, dont u...
متن کاملRecherche d'information XML utilisant un principe de vote
RÉSUMÉ. Cet article décrit une approche pour la recherche d’information dans des collections de documents XML. Cette approche utilise une méthode de vote pour déterminer les éléments XML répondant à une requête. Une requête peut combiner des informations sur le contenu recherché, sur la granularité des éléments recherchés et sur les éléments structurels associés aux concepts recherchés. La méth...
متن کاملRecherche approchée d'information dans une base de documents semi-structurés
RÉSUMÉ. Nous proposons des algorithmes dédiés à l'indexation et à la recherche approximative d'information dans les bases de données hétérogènes semi-structurées XML. Le modèle d'indexation proposé est adapté à la recherche de contenu textuel dans les contextes XML définis par les structures d'arbres. Les mécanismes de recherche approchée mis en œuvre s’appuient sur une distance de Levenshtein ...
متن کاملLes ontologies pour la recherche ciblée d'information sur le Web : une utilisation et extension d'OWL pour l'expansion de requêtes
HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...
متن کاملCompression de structure XML pour la recherche d'information structurée
RÉSUMÉ. La recherche d’informations dans les documents structurés nécessite le stockage de la structure des documents indexés dans les index. Si de nombreuses méthodes sont connues et largement utilisées pour compresser les index pour les documents plats, le stockage efficient de la structure est peu étudié. Nous présentons une représentation de structure arborescente adaptée à la recherche d’i...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2011